Наносемантика NLab Speech

Продукт
Разработчики: Наносемантика (Nanosemantics Lab)
Дата премьеры системы: 2021/03/15
Технологии: ИБ - Биометрическая идентификация,  Речевые технологии

Основные статьи:

NLab Speech – это набор нейросетевых алгоритмов обработки аудиосигналов и анализа текста, обученных и откалиброванных на большом количестве размеченных вручную речевых данных.

2022: Включение в Реестр отечественного ПО

В марте 2022 года технология NLab Speech ASR была включена в Единый реестр российских программ для электронных вычислительных машин и баз данных. Одновременно с NLab Speech ASR в Единый реестр также была включена NLab Speech TTS.

2021: Вывод решения на рынок

Эксперт в области искусственного интеллекта компания «Наносемантика» вышел на рынок распознавания речи. Резидент Кластера информационных технологий Фонда «Сколково» представил технологию NLab Speech. С ее помощью можно, например, сократить расходы на колл-центры, облегчить заполнение документов и улучшить качество жизни людей с ограниченными возможностями. Об этом Фонд «Сколково» сообщил 15 марта 2021 года.

На март 2021 года показатель точности NLab Speech (обратный Word Error Rate) составляет более 82% на зашумлённых данных из телефонии. А скорость обработки данных в облаке «Наносемантики» достигает 6 real-time factor – это на 40-80% выше скорости конкурирующих облачных сервисов.

«
Мы уже наравне с лидерами по точности голосовых технологий, работающих на русском языке, и стремимся качественно превзойти их. Для этого есть все предпосылки: мы улучшаем языковые и акустические модели, нейросеть-пунктуатор. Собираем еще больше качественных данных для обучения нейронных сетей. Также для повышения точности распознавания речи мы планируем внедрить в NLab Speech классификацию аудио по полу, возрасту, скорости речи, высоте тона, громкости и эмоциям говорящего. Более того, мы планируем добавить классификацию мест по шуму окружения говорящего. Вместе с этим ведется разработка английского, китайского и корейского ASR,
сказал Станислав Ашманов, генеральный директор компании «Наносемантика»
»

«
Сложно переоценить улучшение качества голосовых роботов на основе автоматического распознавания речи (ASR) от «Наносемантики» для организаций, доверяющих обслуживание клиентов машинному обучению. Голосовой помощник, наделенный речевыми возможностями высокого уровня и распознавания слов, заменяет десятки и сотни сотрудников колл-центра, что сокращает расходы компании на персонал и повышает скорость обслуживания клиентов. Внедрение ASR существенно облегчит и оптимизирует работу и в других сферах бизнеса. К примеру, медработники с помощью голосового заполнения документов смогут быстро составлять анамнезы, а люди с ограниченными возможностями за счет голосовых технологий улучшат качество своей жизни,
отметил Павел Кривозубов, руководитель направления «Робототехника и искусственный интеллект» Фонда «Сколково»
»

Над созданием технологии команда трудилась больше двух лет. Чтобы подготовить большой массив обучающих данных «Наносемантика» разработала платформу для их разметки NLab Marker. C ее помощью данные преобразуются в формат, пригодный для обучения нейронных сетей.Игорь Лейпи, ГК Softline: Объем поставок российских операционных систем в ближайшие годы увеличится как минимум вдвое

В отличие от человека, нейронная сеть в NLab Speech анализирует звуковой сигнал как изображение: каждому аудио сопоставляется его спектрограмма, после чего нейронная сеть переводит спектрограммы в текстовые предположения о том, что было произнесено в аудио. Наилучший вариант определяется при помощи языковой модели, учитывающей частотные показатели совместной встречаемости слов.

Для обучения акустических моделей было собрано более 12 тысяч часов аудио из различных источников: колл-центры, голосовые сообщения, аудиокниги, вебинары. Также были подготовлены наборы данных для обучения моделей, которые показывают лучшие результаты на записях с микрофонов пользовательских устройств, таких как смартфоны и ноутбуки. Пришлось учесть реверберацию и эквализацию при работе с аудио записями из разных источников и полученных при записи в разных условиях.

На март 2021 года технология распознавания речи NLab Speech от «Наносемантики» – это самодостаточная технология, повторяющая речевые возможности человека, не требующая участия в процессе сторонних сервисов. Быстрое и масштабируемое распознавание речи работает и на процессорах, и на видеокартах. NLab Speech включает в себя как файловое распознавание речи, так и потоковое. Первое выдает только конечный результат, а потоковое – в том числе и промежуточные после каждого сказанного слова, которые корректируются в зависимости от продолжения речи (такой же принцип используется, например, в Apple Siri). Помимо прочего, ASR от «Наносемантики» работает с основными протоколами связи: websocket, grpc и mrcp — это обеспечивает гибкость NLab Speech при интеграции сервиса конкретному клиенту. Также имеется разбивка стереозаписей по диалоговым репликам для удобства использования результатов ASR в системах речевой аналитики. NLab Speech автоматически корректирует написание текста, исправляет ошибки и расставляет пунктуацию.



ПРОЕКТЫ (1) ПРОЕКТЫ НА БАЗЕ (1) ИНТЕГРАТОРЫ (1)
РЕШЕНИЕ НА БАЗЕ (1) СМ. ТАКЖЕ (3)


Подрядчики-лидеры по количеству проектов

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Биолинк Солюшенс (BioLink Solutions) (134)
  Прософт Биометрикс (ProSoft Biometrics) (74)
  Индид, Indeed (ранее Indeed ID) (44)
  VisionLabs (ВижнЛабс) (34)
  Группа компаний ЦРТ (Центр речевых технологий) (30)
  Другие (473)

  Прософт Биометрикс (ProSoft Biometrics) (11)
  VisionLabs (ВижнЛабс) (7)
  Группа компаний ЦРТ (Центр речевых технологий) (5)
  РекФэйсис (4)
  Ростелеком (4)
  Другие (62)

  Индид, Indeed (ранее Indeed ID) (6)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (6)
  ВидеоМатрикс (Videomatrix) (2)
  Goodt (Гудт) (2)
  NDBC - ЭнДиБиСи (ранее НТТ ДАТА Бизнес Солюшнс, itelligence Россия, Ителлидженс) (2)
  Другие (24)

  Сбербанк (7)
  Индид, Indeed (ранее Indeed ID) (7)
  Сканпорт АйДи (Scanport) (6)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (6)
  VisionLabs (ВижнЛабс) (4)
  Другие (23)

  Сбербанк (2)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (1)
  Voca-Tech (Вока-Тек) (1)
  ОКТРОН (1)
  САТЕЛ (1)
  Другие (1)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Биолинк Солюшенс (BioLink Solutions) (9, 140)
  Прософт Биометрикс (ProSoft Biometrics) (18, 84)
  VisionLabs (ВижнЛабс) (26, 50)
  Индид, Indeed (ранее Indeed ID) (1, 44)
  Группа компаний ЦРТ (Центр речевых технологий) (14, 38)
  Другие (359, 322)

  Прософт Биометрикс (ProSoft Biometrics) (7, 11)
  VisionLabs (ВижнЛабс) (2, 8)
  Группа компаний ЦРТ (Центр речевых технологий) (2, 6)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (1, 5)
  РекФэйсис (2, 4)
  Другие (27, 36)

  Индид, Indeed (ранее Indeed ID) (1, 6)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (1, 6)
  ABC Solutions (Эй Би Си Солюшенс) (1, 3)
  Goodt (1, 3)
  VisionLabs (ВижнЛабс) (2, 2)
  Другие (10, 11)

  Сбербанк (3, 8)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (1, 7)
  Индид, Indeed (ранее Indeed ID) (1, 7)
  VisionLabs (ВижнЛабс) (3, 6)
  Shenzhen Chainway Information Technology (1, 6)
  Другие (7, 9)

  Сбербанк (1, 2)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (1, 1)
  Voca-Tech (Вока-Тек) (1, 1)
  Shenzhen Chainway Information Technology (1, 1)
  Другие (0, 0)

Распределение систем по количеству проектов, не включая партнерские решения

За всю историю
2021 год
2022 год
2023 год
Текущий год

  BioLink BioTime - 123
  BioLink FingerPass - 45
  Indeed Access Manager (Indeed AM) - 44
  Biosmart Studio - 36
  СКУД BioSmart - 27
  Другие 444

  VisionLabs Luna - 5
  BSS Digital2Speech - 5
  VisionLabs Thermo (ранее VisionLabs Termo) - 5
  BioSmart PV‑WTC Терминал - 4
  Voice2Med Система распознавания речи в медицине - 4
  Другие 47

  Indeed Access Manager (Indeed AM) - 6
  BSS Digital2Speech - 6
  Goodt (Ранее ZoZo RCAM, Revenue&Costs Assurance Management) - 3
  Vmx SILA: HSE - 2
  КриптоБиоКабина (КБК) - 1
  Другие 10

  BSS Digital2Speech - 7
  Indeed Access Manager (Indeed AM) - 7
  Shenzhen Chainway C-серия RFID-считывателей - 6
  Сбербанк: Система оплаты по улыбке - 5
  АйТи Бастион: СКДПУ НТ Система контроля действий поставщиков ИТ-услуг - 3
  Другие 11

  Сбербанк: Система оплаты по улыбке - 2
  Shenzhen Chainway C-серия RFID-считывателей - 1
  Voca Tech: Система автоматизированного контроля сотрудников для выполнения стандартов обслуживания - 1
  BSS Digital2Speech - 1
  Другие 0

Подрядчики-лидеры по количеству проектов

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Группа компаний ЦРТ (Центр речевых технологий) (43)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (27)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (24)
  Naumen (Наумен консалтинг) (14)
  Voice Systems Robotics (VSR, VS Robotics) (9)
  Другие (147)

  Группа компаний ЦРТ (Центр речевых технологий) (5)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (4)
  3iTech (ранее 3i Technologies) (2)
  Naumen (Наумен консалтинг) (2)
  Neuro.net (Нейро) (2)
  Другие (15)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (12)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (7)
  Naumen (Наумен консалтинг) (3)
  Voice Systems Robotics (VSR, VS Robotics) (3)
  Мегапьютер Интелидженс (Megaputer Intelligence) (2)
  Другие (11)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (9)
  Группа компаний ЦРТ (Центр речевых технологий) (8)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (6)
  Naumen (Наумен консалтинг) (4)
  Unlimited Production (Анлимитед Продакшен) (4)
  Другие (18)

  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2)
  SberDevices (СалютДевайсы, ранее СберДевайсы) (2)
  AllSee (АЛЛ СИИ) (1)
  Napoleon IT (Наполеон Айти) (1)
  Naumen (Наумен консалтинг) (1)
  Другие (6)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Группа компаний ЦРТ (Центр речевых технологий) (16, 46)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (3, 28)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (11, 25)
  Яндекс (Yandex) (9, 14)
  Avaya (4, 13)
  Другие (300, 143)

  Группа компаний ЦРТ (Центр речевых технологий) (2, 5)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (1, 5)
  SberDevices (СалютДевайсы, ранее СберДевайсы) (2, 2)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (1, 2)
  Neuro.net (Нейро) (1, 2)
  Другие (7, 9)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (2, 12)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
  Voice Systems Robotics (VSR, VS Robotics) (1, 3)
  Naumen (Наумен консалтинг) (1, 3)
  Voximplant (Фастком) (2, 2)
  Другие (9, 11)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (1, 9)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 8)
  Группа компаний ЦРТ (Центр речевых технологий) (4, 7)
  Unlimited Production (Анлимитед Продакшен) (1, 6)
  Naumen (Наумен консалтинг) (2, 4)
  Другие (12, 13)

  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 2)
  SberDevices (СалютДевайсы, ранее СберДевайсы) (2, 2)
  Сбер Бизнес Софт (1, 1)
  Naumen (Наумен консалтинг) (1, 1)
  Voice Systems Robotics (VSR, VS Robotics) (1, 1)
  Другие (5, 5)

Распределение систем по количеству проектов, не включая партнерские решения

За всю историю
2021 год
2022 год
2023 год
Текущий год

  МТТ VoiceBox - 24
  BSS Digital2Speech - 19
  Voice2Med Система распознавания речи в медицине - 14
  SmartLogger II - 12
  Naumen Erudite - 12
  Другие 158

  BSS Digital2Speech - 5
  Voice2Med Система распознавания речи в медицине - 4
  МТТ VoiceBox - 2
  Neuro.net Голосовой робот - 2
  3i TouchPoint Analytics - 2
  Другие 9

  МТТ VoiceBox - 11
  BSS Digital2Speech - 6
  VS Robotics: VS Робот-оператор - 3
  Naumen Erudite - 3
  VoxImplant - 2
  Другие 12

  МТТ VoiceBox - 9
  BSS Digital2Speech - 7
  EXpress Защищенный корпоративный мессенджер - 6
  SmartLogger II - 4
  Naumen Erudite - 3
  Другие 17

  YandexGPT (YaLM 2.0) - 1
  SmartLogger II - 1
  Naumen Erudite - 1
  BSS Digital2Speech - 1
  Сбер SaluteSpeech (SmartSpeech) - 1
  Другие 6